统计学是通过收集数据和分析数据来认识现象的一门科学。在现实生活中,我们往往无法调查每一个对象,因此需要通过“抽样”来以偏概全,实现科学推断。
1. 통계 조사의 핵심 용어
- 전수 조사 (인구 조사): 모든 조사 대상에 대해 조사를 시행하는 방법.
- 표본 조사 (샘플링 설문조사): 从总体中抽取一部分个体进行调查,并以此为依据对总体情况作出估计和推断。
- 총계 (인구집단): 조사 대상의 전체.
- 개체 (개별 대상): 총계를 구성하는 각각의 조사 대상.
- 표본 (샘플): 총계에서 추출된 그 일부 개체.
- 표본 크기: 표본에 포함된 개체의 수.
2. 데이터 수집의 다양한 경로
직접적으로조사({예: 인구 조사})를 통해 데이터를 얻는 것 외에도, 다음과 같은 방식으로도 가능합니다:
- 실험: 통계학에서 실험을 계획하는 학문을 '실험 설계'라고 합니다.
- 관찰: 자연 상태에서 정보를 수집하는 것.
- 조회: 이전에 수집된 데이터를 획득하며, 이러한 데이터를이차 데이터라고 부릅니다.
표본은 무작위성을 가진다. 따라서 표본을 기반으로 총계를 추정할 때, 통계적 추론 결과는확률성({즉 오류가 발생할 수 있음})를 가지게 되며, 이는 통계 결과를 실제 문제를 설명할 때 주의해야 할 점입니다.
比例公式:$\frac{n}{N} = \frac{\text{层样本量}}{\text{各层总体量}}$
1. 다항식 항 수집: 하나의 $x^2$ 정사각형, 세 개의 $x$ 직사각형 막대, 그리고 두 개의 $1\times1$ 단위 정사각형.
2. 기하학적으로 이들을 조합하기 시작합니다.
3. 완벽하게 더 큰 연속된 직사각형을 형성했습니다! 너비는 $(x+2)$, 높이는 $(x+1)$입니다.
질문 1
어떤 지역에서 컴퓨터 능력 시험에 응시한 5,000명의 학생 성적을 이해하기 위해, 그 중 200명을 추출하여 조사 및 분석했습니다. 이 문제에서 추출된 200명의 학생은 ( )입니다.
A. 총계
B. 개체
C. 표본
D. 표본 크기
정답! 총계는 5,000명 학생의 성적이고, 추출된 200명 학생의 성적이 표본을 구성합니다.
오답. 200명의 학생은 총계의 부분집합이며, 즉 표본입니다. 표본 크기는 구체적인 수치인 200을 의미합니다.
질문 2
한 회사에는 총 $N$명의 직원이 있으며, 여러 부서가 있습니다. 전체 직원 중에서 표본 크기가 $n$인 비율 배분 분층 무작위 표본 추출법을 사용하여 표본을 추출하려고 합니다. 만약 어떤 부서에 $m$명의 직원이 있다면, 해당 부서에서 추출할 직원 수는 ( )입니다.
$\frac{m}{n} \cdot N$
$\frac{n}{N} \cdot m$
$\frac{m}{N} \cdot m$
$n - m$
정답! 분층 무작위 표본 추출의 비율 배분 원칙에 따르면, 표본 추출 비율은 $\frac{n}{N}$이며, 해당 부서에서 추출할 인원 수는 $m \times \frac{n}{N}$입니다.
错误。分层随机抽样需保持每层内的抽样比例与总体抽样比例一致,即 $\frac{\text{层样本量}}{m} = \frac{n}{N}$。
질문 3
다음 조사 중에서 가장 적합하게 표본 조사를 사용할 수 있는 것은 ( )입니다.
한 현의 각 마을의 곡물 재배 면적 조사
일괄적인 옥수수 씨앗의 발아율 확인
어느 기업이 직원의 건강 검진표 조사
어느 반 학생의 시력 전수 조사
정답! 옥수수 씨앗의 발아율을 확인하는 것은 파괴적입니다. 전수 조사를 수행할 수 없으며, 반드시 표본 조사를 사용해야 합니다.
오답. 조사가 파괴적(예: 씨앗 발아율, 전구 수명 등)이거나 총계가 너무 크다면, 표본 조사를 선택해야 합니다.
질문 4
어떤 지역의 공공 보건 기관이 200명의 학생들의 흡연 여부를 조사했으며, 58명이 '예'라고 답했습니다. 해당 지역의 흡연 학생 비율을 추정할 수 있나요?
29%
58%
20%
추정 불가능
정답! 표본의 빈도를 사용하여 총계의 백분율을 추정합니다: $58 \div 200 = 0.29 = 29\%$.
오답. 표본 빈도를 표본 크기로 나누어 빈도를 구한 후, 이를 기반으로 총계 비율을 추정해야 합니다.
질문 5
간단 무작위 표본 추출과 분층 무작위 표본 추출의 주요 차이는 ( )입니다.
표본 크기의 크기가 다름
각 개체가 표본에 포함될 확률이 동일한지 여부
개체의 차이에 따라 그룹화하여 표본 추출하는지 여부
데이터 처리 방법이 완전히 다름
정답! 분층 무작위 표본 추출은 총계 내부의 차이가 명확할 경우에 적합하며, 층을 나누어 표본 오차를 줄이는 데 유용합니다.
참고: 두 방법 모두 각 개체가 추출될 확률이 동일하지만, 차이점은 분층 표본 추출이 총계의 보조 정보(계층 차이)를 활용한다는 것입니다.
질문 6
对于 $m$ 个数据 $x_i$ 平均数为 $\bar{x}$,$n$ 个数据 $y_j$ 平均数为 $\bar{y}$,组合后的总平均数公式正确的是 ( )。
$\frac{\bar{x} + \bar{y}}{2}$
$\frac{m\bar{x} + n\bar{y}}{m+n}$
$\frac{\bar{x} + \bar{y}}{m+n}$
$\frac{m+n}{\bar{x} + \bar{y}}$
정답! 이것은 가중 평균의 개념이며, 분층 표본 추출에서 전체 평균을 추정하는 핵심 공식입니다.
错误。不能直接将平均数相加除以2,必须考虑每一组数据的样本量(权重)。
질문 7
표본 조사의 '확률성'에 관해 다음 중 올바른 말은 ( )입니다.
방법이 과학적이라면 결론은 절대적인 진리이다
표본 조사 결과는 전혀 참고할 가치가 없다
结论是基于样本推断的,存在随机性风险
普查的结果也会产生或然性错误
正确!统计推断的结果具有或然性,是因为样本的选择具有随机性。
错误。或然性是统计学的固有属性,指结果带有一定的概率性而非必然性。
질문 8
다음 조사 방법 중 '이차 데이터'를 획득하는 것은 ( )입니다.
체육 수업에서 학생들의 100미터 성적을 실측하는 것
도서관에서《통계 연감》의 인구 데이터를 조회하는 것
설문지를 설계하여 보행자의 소비 습관을 조사하는 것
화학 실험을 통해 반응 시간을 기록하는 것
正确!查阅他人已经收集并整理好的数据即为获取二手数据。
错误。二手数据是指并非由调查者直接通过原始观察或试验获得的数据。
질문 9
분층 무작위 표본 추출에서 총계 크기가 1000, 표본 크기가 100이며, 특정 층에 250명의 개체가 있다면, 해당 층에서 추출해야 하는 개체 수는 ( )입니다.
10
25
50
100
正确!抽样比为 $100/1000 = 0.1$,该层应抽 $250 \times 0.1 = 25$ 个。
错误。请利用比例公式:层样本量 = (样本容量 / 总体容量) × 层总体量。
질문 10
简单随机抽样中,每个个体入样的概率是 ( )。
1
$n/N$
$1/n$
$1/N$
正确!在样本容量为 $n$,总体容量为 $N$ 的简单随机抽样中,每个个体被抽到的概率均为 $n/N$。
错误。虽然是随机抽样,但每个体被选中的概率取决于样本规模与总体的比值。
挑战:统计方案设计与推断
阅读材料:市政府计划采用阶梯电价,通过 200 户居民的抽样数据(范围 50~350 kWh)决定标准。目标是使 75% 的居民处于第一档,20% 处于第二档,其余 5% 处于第三档。
1. [Short Answer] 证明分层抽样总均值公式:$\frac{\sum_{i=1}^m x_i + \sum_{j=1}^n y_j}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$
证明:根据平均数定义可知,$\sum_{i=1}^m x_i = m\bar{x}$ 且 $\sum_{j=1}^n y_j = n\bar{y}$。
将其代入左式分子中:
左式 $= \frac{m\bar{x} + n\bar{y}}{m+n} = \frac{m\bar{x}}{m+n} + \frac{n\bar{y}}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$。
证毕。该公式说明总平均数是各层平均数的加权平均值。
将其代入左式分子中:
左式 $= \frac{m\bar{x} + n\bar{y}}{m+n} = \frac{m\bar{x}}{m+n} + \frac{n\bar{y}}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$。
证毕。该公式说明总平均数是各层平均数的加权平均值。
2. [Writing Task] 请你为“全校学生体重情况调查”设计一个方案(约 500 字)。
参考方案要点:
1. 明确目标: 了解全校学生的平均体重、肥胖率分布。
2. 确定总体与个体: 全校所有学生为总体,每位学生为个体。
3. 选择抽样方法: 考虑到不同年级、性别的发育差异显著,建议采用分层随机抽样。按年级(高一、高二、高三)及性别作为分层标准。
4. 确定样本容量: 根据人力成本,选取 10% 的学生(如 300 人)。
5. 实施数据收集: 使用实测法(体重秤记录),而非自报(二手数据可能存在偏差)。
6. 分析与推断: 计算样本均值与标准差,绘制频率分布直方图,并根据百分位数定义“超重”标准。
1. 明确目标: 了解全校学生的平均体重、肥胖率分布。
2. 确定总体与个体: 全校所有学生为总体,每位学生为个体。
3. 选择抽样方法: 考虑到不同年级、性别的发育差异显著,建议采用分层随机抽样。按年级(高一、高二、高三)及性别作为分层标准。
4. 确定样本容量: 根据人力成本,选取 10% 的学生(如 300 人)。
5. 实施数据收集: 使用实测法(体重秤记录),而非自报(二手数据可能存在偏差)。
6. 分析与推断: 计算样本均值与标准差,绘制频率分布直方图,并根据百分位数定义“超重”标准。
3. [Short Answer] 有人说:“抽样调查比普查节省人力物力,且结果差不多,所以抽样调查永远更可取。”你认为这种说法有道理吗?
参考答案:
这种说法有一定道理,但过于绝对。
(1) 优势: 抽样调查确实具有经济性、及时性,且在具有破坏性(如种子发芽率试验)或总体无限大时是唯一选择。
(2) 局限: 抽样调查存在抽样误差,结论具有“或然性”。对于需要极高精度、涉及国家重大决策(如人口普查)或法律要求必须全覆盖的情况,普查仍然不可替代。
(3) 结论: 应根据调查目的、成本及总体规模灵活选择。
这种说法有一定道理,但过于绝对。
(1) 优势: 抽样调查确实具有经济性、及时性,且在具有破坏性(如种子发芽率试验)或总体无限大时是唯一选择。
(2) 局限: 抽样调查存在抽样误差,结论具有“或然性”。对于需要极高精度、涉及国家重大决策(如人口普查)或法律要求必须全覆盖的情况,普查仍然不可替代。
(3) 结论: 应根据调查目的、成本及总体规模灵活选择。
✨ 核心要点
总体个体分清晰,随机抽样保公平라고 부릅니다.分层比例不能错,样本估计带或然!
💡 分层关键点
分层抽样的核心在于各层内个体差异小,层与层之间差异大。
💡 样本容量注意
样本容量 $n$ 越大,通常抽样误差越小,但成本也越高。
💡 普查 vs 抽样
具有破坏性的试验(如灯泡寿命、粮食发芽率)绝对不能使用全面调查。
💡 数据清洗
获取二手数据后,必须检查数据的来源是否权威、时效性如何,进行必要的数据清洗。
💡 或然性理解
抽样得出的“该地区吸烟率 29%”是一个估计值,不代表总体一定是 29%。